我们展示了自我监督学习的使用来探索和利用大型未标记的数据集。从最新数据释放的暗能谱仪器(DESI)传统成像调查中侧重于4200万个Galaxy图像,我们首先培养一个自我监督模型来蒸馏到对称,不确定性和每个噪声的强大稳健图片。然后,我们使用表示来构建和公开发布交互式语义相似性搜索工具。我们展示了我们的工具如何用于迅速发现罕见的物体,仅给出一个例子,提高人群采购活动的速度,并构建和改进监督应用程序的培训集。虽然我们专注于Sky调查的图像,但该技术很简单适用于任何维度的任何科学数据集。可以在https://github.com/georgestein/galaxy_search找到相似性搜索Web应用程序
translated by 谷歌翻译